Reti corticali di tasselli vocali
per riconoscere identità ed emozioni delle voci
LORENZO L.
BORGIA
NOTE E NOTIZIE - Anno XIX – 22 gennaio
2022.
Testi
pubblicati sul sito www.brainmindlife.org della Società Nazionale di
Neuroscienze “Brain, Mind & Life - Italia” (BM&L-Italia). Oltre a notizie
o commenti relativi a fatti ed eventi rilevanti per la Società, la sezione
“note e notizie” presenta settimanalmente lavori neuroscientifici selezionati
fra quelli pubblicati o in corso di pubblicazione sulle maggiori riviste e il cui
argomento è oggetto di studio dei soci componenti lo staff dei recensori della Commissione
Scientifica della Società.
[Tipologia del testo: RECENSIONE]
Il mistero della voce è suggestivo: pensiamo che
fin dal grembo di nostra madre impariamo a
riconoscere la sua voce e quella del papà…
[Papa Francesco]
La voce
dell’uomo è l’apologia della musica.
[Friedrich Nietzsche]
Nulla
altera le qualità materiali della voce
quanto il
fatto di contenere il pensiero.
[Marcel Proust]
Eravamo in una delle librerie più frequentate di Firenze
per la sua attività convegnistica, il presidente della nostra società
scientifica ed io, quando sentimmo distintamente alle nostre spalle pronunciare
in inglese con accento newyorkese una breve frase con una timbrica vocale che
ci era cara e familiare. Ci siamo guardati negli occhi, sospesi per un istante –
e dopo ci siamo comunicati che nella nostra mente sono passati gli stessi
ricordi – ma nessuno dei due si è voltato per guardare chi fosse, perché
sapevamo che non poteva essere lui, per un’infinità di ragioni o, meglio, per una
sola ragione che metteva a tacere tutte le altre: Gerald Edelman era morto il
17 maggio del 2014.
Cercando di razionalizzare, ci siamo detti che gli indici
acustici delle frequenze adottati dal nostro cervello per il riconoscimento della
voce dell’autore della teoria della selezione dei gruppi neuronici dovevano
essere molto simili a quelli appena uditi o che, semplicemente, avevamo una memoria
non così finemente discriminata e, dunque, le frequenze timbriche di una
laringe di un uomo di mezza età associate alla dinamica fonoarticolatoria
tipica dell’accento prosodico di New York, possono averci ingannato. Ma nella
vita di tutti i giorni, nella massima parte dei casi e per la maggior parte
delle persone, il riconoscimento vocale avviene senza errori, e rappresenta una
delle più sorprendenti tra le abilità basate sulla fisiologia percettiva
naturale. Introducendo questo argomento così si esprimeva il nostro presidente una
decina d’anni or sono:
“La capacità di evocazione della voce umana
costituisce uno dei capitoli più suggestivi, affascinanti e complessi del
rapporto tra percezione ed esperienza psichica. Ciò che può essere evocato da
poche centinaia di millisecondi di stimoli acustici alle giuste frequenze
sonore, in alcuni casi sembra avere le dimensioni di un vero e proprio mondo e,
molto spesso, attiene ad una tranches de vie in cui l’identità del
soggetto della voce ha avuto un ruolo, un peso o un’influenza nella vita
affettiva, emotiva, cognitiva o lavorativa di chi ascolta, magari per la
frequentazione assidua di un periodo o per veri e propri rapporti di parentela,
amicizia o colleganza. È sufficiente un breve ascolto perché si abbia il riconoscimento
della voce e la simultanea attualizzazione dei contenuti associati nel
nostro cervello: l’udito ha portato il codice dell’identità del
parlante nel cuore delle memorie autobiografiche di chi ascolta, dove ha agito
come una chiave che ha aperto la sua specifica serratura di
contenuti psichici, costituiti da stati funzionali delle reti neuroniche
cerebrali.
Il processo di riconoscimento identitario legato
alla voce è ordinariamente integrato dalla percezione del tono affettivo-emozionale
del parlante, che rivela una particolare efficacia discriminativa quando si
tratti di una persona cara o bene conosciuta dall’ascoltatore. Questo aspetto non
deve essere sottovalutato perché, se è vero che in generale questa abilità non
meraviglia in quanto ha una lunga storia filogenetica, rivelata dalla capacità
del cane di riconoscere gli elementi di ostilità all’ascolto vocale svelata da
un correlato nel nucleo accumbens, nella realtà umana costituisce un cardine di
processi alla base del rapporto psicologico con l’altro, dalla genesi di
conflittualità alle manifestazioni di empatia”[1].
Non solo la capacità umana di identificare voci
conosciute in vari esperimenti si è mostrata superiore a quella di sofisticati softwares
sviluppati sull’analisi spettrografica di sintetizzatori vocali, ma un’abilità
simultanea in questo processo del cervello umano è data dalla capacità di
riconoscere lo stato affettivo o la particolare emozione che può modulare la parola,
ossia quell’atto locutorio che Fernand De Saussure definiva esecuzione
individuale della lingua che accomuna i parlanti. Con un brevissimo ascolto
anche un bambino è in grado di riconoscere tra tante voci quella di un compagno
di scuola, di un’insegnante, di una zia o di una vicina di casa e, anche da una
sola parola sapere se è allegra, preoccupata o adirata[2]. Nonostante
i numerosi studi condotti per decifrare le basi neurofunzionali di queste
abilità e alcuni risultati significativi, il modo in cui il cervello elabora la
voce non è stato ancora definito; in particolare, non c’è accordo fra i
ricercatori circa il modo esclusivo per la voce o comune ad altri
stimoli acustici del processing dei segnali che da una laringe umana
giungono all’area 41 di Brodmann della corteccia temporale del ricevente, con
la mediazione di orecchio esterno e medio, coclea e vie acustiche.
Un nuovo studio, condotto da Yang Zhang e colleghi,
ha identificato un’organizzazione gerarchica di reti corticali dedicate all’elaborazione
della voce, che segue un criterio funzionale simile a quello del sistema
identificato nella corteccia visiva dei primati per l’elaborazione dei volti.
Lo studio qui recensito è di notevole rilievo neuroscientifico perché non
indica soltanto correlati neurofunzionali di un processo legato a un
particolare canale percettivo, ma fornisce un contributo a quel mosaico di nozioni
che sta delineando un modo più generale di organizzazione funzionale del
cervello per l’attribuzione di valori di identità e significato a elementi quali
i volti e le voci.
(Zhang
Y., et al., Hierarchical
cortical networks of “voice patches” for processing voices in human brain. Proceedings of the National Academy of Sciences USA 118 (52): e2113887118, December 28,
2021).
La provenienza degli autori è la seguente: Tsinghua Laboratory of Brain and Intelligence (THBI),
Tsinghua University, Beijing (Cina); Department of Biomedical Engineering,
School of Medicine, Tsinghua University, Beijing (Cina); Department of
Biomedical Engineering, Johns Hopkins University, Baltimore, MD (USA); Shanghai
Mental Health Center, Shanghai Jiao Tong University School of Medicine,
Shanghai (Cina); Department of Epilepsy Center, Tsinghua University, Beijing (Cina);
Department of Neurosurgery, General Hospital of People’s Liberation Army,
Beijing (Cina).
La voce per gli antichi era metonimia del logos,
infatti Plutarco dice che cercare la virtù nelle persone male educate è come
cercare la voce nei pesci.
La cultura antica ci aiuta a comprendere quanto la
voce sia stata importante nella realtà umana e non solo per l’uso che ne
facevano i retori e, a loro imitazione, avvocati, politici e capi militari, ma
anche per il ruolo di veicolo sui generis del pensiero, ben distinto
dalla parola scritta. Euripide nella gara con Eschilo si vanta che i suoi
spettatori avevano imparato a parlare assistendo alle rappresentazioni delle
sue opere[3]. Ma il
merito non poteva attribuirsi esclusivamente ai testi, perché erano state le
voci degli attori a imprimersi nella mente degli ascoltatori, e il registro
timbrico degli interpreti era rimasto indelebilmente legato alla calibratura
dei pensieri, tanto nel loro senso logico quanto nel loro valore affettivo. Di
ciò è ben consapevole William Shakespeare, padre riconosciuto dai contemporanei
dell’inglese moderno, non per aver scritto trattati di grammatica, ma per
essere stato interpretato dalla valentia delle voci di attori capaci di rendere
tutte le sfumature, le sottigliezze, le profondità, i doppi sensi, le intensità
dei sentimenti e dei ragionamenti di copioni che sono diventati modello di lingua,
pensiero e cultura.
Se Nietzsche valorizzava così tanto le modulazioni
della voce da considerarle “apologia della musica”, il grande musicista Richard
Strauss, riprendendo la metonimia di senso che nell’attività vocale comprende
tutto il linguaggio-pensiero che vi sono connessi, riconosce che la voce umana
possa essere il più bello degli strumenti ma, in senso proprio, rimane il più
difficile da suonare bene.
Probabilmente, proprio questo intimo rapporto –
testimoniato dalla cultura – tra la voce e tanti aspetti differenti della
psiche umana, è all’origine di una codifica cerebrale della voce umana tanto
efficiente ma altrettanto difficile da decifrare. È ragionevole supporre che il
legame fra i caratteri acustici dell’esecuzione locutoria e i suoi valori di
senso si sia evoluto con tutto l’encefalo, così da consentire quelle
straordinarie prestazioni di riconoscimento di identità e attribuzione di
qualità affettivo-emotiva che appartengono alla nostra esperienza quotidiana.
Per indagare in vivo i meccanismi di elaborazione cerebrale
dell’informazione uditiva prodotta dall’ascolto della voce umana, Yang Zhang e
colleghi hanno registrato segnali elettrocorticografici provenienti da
elettrodi intracranici impiantati a fine terapeutico nel cervello di pazienti
affetti da disturbi epilettici, mentre questi volontari prestavano ascolto a 6
differenti categorie di voci e, per confronto di controllo, a suoni
classificati come “non vocali”, ovvero frequenze acustiche provviste di alcuni
tratti comuni con i suoni della voce umana ma scientificamente differenti nei
connotati percettivi.
L’esame dei tracciati registrati ha subito fatto
rilevare che alcune sub-regioni del lobo temporale mostravano preferenze
per distinti stimoli vocali. A tali circoscritti territori di corteccia è stato
attribuita la denominazione di “chiazze vocali” (voice patches)[4].
Le analisi di latenza hanno suggerito una doppia
organizzazione gerarchica delle chiazze o tasselli vocali
della corteccia del lobo temporale. I ricercatori hanno poi accertato che le
aree circoscritte di sensibilità alla voce erano funzionalmente connesse, sia
quando il soggetto era impegnato nel compito sperimentale, sia quando il suo
cervello era in apparente stato di riposo.
Un’altra osservazione rilevante, derivata dallo
studio dei tracciati elettrocorticografici, è che le aree motorie di
sinistra erano co-attivate e correlate con le chiazze
vocali del lobo temporale durante il compito di ascolto di suoni.
L’insieme dei dati rilevati, per il cui dettaglio si
rinvia alla lettura integrale del testo del lavoro originale, rivela un’organizzazione
in reti corticali gerarchiche nel cervello umano per l’elaborazione
della voce dei propri simili.
L’autore della nota ringrazia la dottoressa Isabella Floriani per la correzione della bozza e
invita alla lettura delle recensioni di argomento connesso che appaiono nella sezione
“NOTE E NOTIZIE” del sito (utilizzare il motore interno nella pagina “CERCA”).
Lorenzo L. Borgia
BM&L-22 gennaio
2022
________________________________________________________________________________
La Società Nazionale di Neuroscienze
BM&L-Italia, affiliata alla International Society of Neuroscience, è registrata
presso l’Agenzia delle Entrate di Firenze, Ufficio Firenze 1, in data 16 gennaio
2003 con codice fiscale 94098840484, come organizzazione scientifica e culturale
non-profit.
[1] Giuseppe Perrella, Riconoscimento
di identità e stato affettivo-emozionale dalla voce – relazione al seminario
su Effetti della percezione acustica e della musica sul cervello, p. 1,
BM&L-Italia, Firenze 2012.
[2]
Il riferimento è a vecchi
esperimenti che si conducevano escludendo il riconoscimento vocale di genitori,
fratelli ed altri parenti conviventi che si adottava
[3] Il fatto è notorio, ma è
opportuno ricordarne la menzione e il commento di Nietzsche, che lo ha reso
nuovamente attuale a partire dal XIX secolo (Friedrich Nietzsche, Nascita della
Tragedia, p. 77, Adelphi, Milano 2000).
[4] Si è preferita questa traduzione
(tra i più comuni significati di patch: toppa, pezza e chiazza) perché
adottata in altri casi da altri autori italiani. Il nostro presidente
preferisce una traduzione più libera, ma che forse rende meglio in italiano il
concetto di “parte circoscritta” che compone un insieme, ossia tassello
o tessera di mosaico.